دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو] - آخرین آپدیت

Data Cleansing Master Class in Python [Video]

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: آماده سازی داده ها ممکن است مهمترین بخش پروژه یادگیری ماشینی باشد. این زمان‌برترین بخش است، اگرچه کمترین موضوع مورد بحث است. آماده‌سازی داده، که گاهی به عنوان پیش‌پردازش داده‌ها نیز شناخته می‌شود، عمل تبدیل داده‌های خام به شکلی است که برای مدل‌سازی مناسب است. الگوریتم های یادگیری ماشین نیاز به شماره گذاری داده های ورودی دارند و اکثر پیاده سازی های الگوریتم این انتظار را حفظ می کنند. بنابراین، اگر داده‌های شما حاوی انواع داده‌ها و مقادیری هستند که اعداد نیستند، مانند برچسب‌ها، باید داده‌ها را به عدد تبدیل کنید. علاوه بر این، الگوریتم‌های یادگیری ماشینی خاص انتظاراتی در رابطه با انواع داده‌ها، مقیاس، توزیع احتمال و روابط بین متغیرهای ورودی دارند و ممکن است لازم باشد داده‌ها را برای برآورده کردن این انتظارات تغییر دهید. در این دوره آموزشی، روش‌های انباشت داده‌ها و تکنیک‌های پیشرفته پاک‌سازی داده‌ها، نحوه اعمال تکنیک‌های پاکسازی داده‌های واقعی در داده‌های خود، تکنیک‌های پیشرفته پاکسازی داده‌ها را خواهید آموخت. همچنین یاد بگیرید که چگونه داده ها را به گونه ای آماده کنید که از نشت داده ها و در نتیجه ارزیابی نادرست مدل جلوگیری شود. در پایان این دوره، شما پیش پردازش داده ها را انجام خواهید داد و به مهارت های پاکسازی داده ها مسلط خواهید شد. بسته کد کامل این دوره در https://github.com/PacktPublishing/Data-Cleansing-Master-Class-in-Python موجود است. داده ها را به گونه ای آماده کنید که از نشت داده ها جلوگیری شود. مشکلات مربوط به داده های آشفته را شناسایی و مدیریت کنید بدانید کدام روش انتخاب ویژگی را بر اساس انواع داده انتخاب کنید تبدیل توزیع احتمال متغیرهای ورودی متغیرهای ورودی نامربوط و زائد را شناسایی و حذف کنید متغیرهای پروژه را در فضایی با ابعاد پایین‌تر بسازید، اگر قصد دارید در دنیای واقعی یک مهندس یادگیری ماشین شوید، این دوره برای شما مناسب است. شما به یک پایه محکم در پایتون نیاز دارید و باید اصول یادگیری ماشین را بدانید. همچنین، شما باید با کتابخانه های یادگیری ماشینی تخصص داشته باشید. بیاموزید که چگونه از تکنیک‌های پاکسازی داده‌های واقعی در داده‌های خود استفاده کنید * تکنیک‌های پیشرفته پاکسازی داده‌ها را بیاموزید * یاد بگیرید چگونه داده‌ها را به گونه‌ای آماده کنید که از نشت داده‌ها و در نتیجه ارزیابی نادرست مدل جلوگیری شود.

سرفصل ها و درس ها

معرفی Introduction

معرفی دوره Course Introduction
ساختار دوره Course Structure
آیا این دوره برای شما مناسب است؟ Is this Course Right for You?

پایه ها Foundations

معرفی آماده سازی داده ها Introducing Data Preparation
فرآیند یادگیری ماشینی The Machine Learning Process
آماده سازی داده ها تعریف شده است Data Preparation Defined
انتخاب یک تکنیک آماده سازی داده ها Choosing a Data Preparation Technique
داده در یادگیری ماشین چیست؟ What is Data in Machine Learning?
داده های خام Raw Data
یادگیری ماشینی عمدتاً آماده سازی داده است Machine Learning is Mostly Data Preparation
وظایف معمول آماده سازی داده ها - پاکسازی داده ها Common Data Preparation Tasks - Data Cleansing
وظایف معمول آماده سازی داده - انتخاب ویژگی Common Data Preparation Tasks - Feature Selection
وظایف معمول آماده سازی داده ها - تبدیل داده ها Common Data Preparation Tasks - Data Transforms
وظایف مشترک آماده سازی داده ها - مهندسی ویژگی Common Data Preparation Tasks - Feature Engineering
وظایف معمول آماده سازی داده ها - کاهش ابعاد Common Data Preparation Tasks - Dimensionality Reduction
نشت داده ها Data Leakage
مشکل در آماده سازی ساده داده ها Problem with NaÏve Data Preparation
مطالعه موردی: نشت داده ها: آموزش/آزمون/رویکرد ساده لوح تقسیم شده Case Study: Data Leakage: Train / Test / Split NaÏve Approach
مطالعه موردی: نشت داده ها: آموزش/آزمون/روش صحیح تقسیم Case Study: Data Leakage: Train / Test / Split Correct Approach
مطالعه موردی: نشت داده: رویکرد ساده لوح K-Fold Case Study: Data Leakage: K-Fold NaÏve Approach
مطالعه موردی: نشت داده: رویکرد صحیح K-Fold Case Study: Data Leakage: K-Fold Correct Approach

پاک کردن داده Data Cleansing

بررسی اجمالی پاکسازی داده ها Data Cleansing Overview
ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید Identify Columns That Contain a Single Value
ستون هایی با مقادیر کم را شناسایی کنید Identify Columns with Few Values
حذف ستون های با واریانس کم Remove Columns with Low Variance
ردیف هایی که حاوی داده های تکراری هستند را شناسایی و حذف کنید Identify and Remove Rows That Contain Duplicate Data
تعریف نقاط پرت Defining Outliers
حذف نقاط پرت - رویکرد انحراف استاندارد Remove Outliers - The Standard Deviation Approach
حذف Outliers - رویکرد IQR Remove Outliers - The IQR Approach
تشخیص خودکار نقاط بیرونی Automatic Outlier Detection
علامت گذاری مقادیر گمشده Mark Missing Values
ردیف هایی با مقادیر از دست رفته را حذف کنید Remove Rows with Missing Values
محاسبه آماری Statistical Imputation
محاسبه مقدار میانگین Mean Value Imputation
Imputer ساده با ارزیابی مدل Simple Imputer with Model Evaluation
مقایسه راهبردهای مختلف انتساب آماری Compare Different Statistical Imputation Strategies
K-نزدیک‌ترین همسایه‌ها K-Nearest Neighbors Imputation
KNNI کامپیوتر و ارزیابی مدل KNNImputer and Model Evaluation
Iterative Imputation Iterative Imputation
IterativeImputer و مدل ارزیابی IterativeImputer and Model Evaluation
IterativeImputer و Different Imputation Order IterativeImputer and Different Imputation Order

انتخاب ویژگی Feature Selection

معرفی انتخاب ویژگی Feature Selection Introduction
انتخاب ویژگی تعریف شده است Feature Selection Defined
آمار برای انتخاب ویژگی Statistics for Feature Selection
بارگیری یک مجموعه داده طبقه بندی شده Loading a Categorical Dataset
مجموعه داده را برای مدلسازی رمزگذاری کنید Encode the Dataset for Modelling
Chi-Squared Chi-Squared
اطلاعات متقابل Mutual Information
مدل سازی با ویژگی های دسته بندی انتخاب شده Modeling with Selected Categorical Features
انتخاب ویژگی با ANOVA در ورودی عددی Feature Selection with ANOVA on Numerical Input
انتخاب ویژگی با اطلاعات متقابل Feature Selection with Mutual Information
مدل سازی با ویژگی های عددی منتخب Modeling with Selected Numerical Features
تنظیم تعدادی از ویژگی های انتخاب شده Tuning a Number of Selected Features
ویژگی ها را برای خروجی عددی انتخاب کنید Select Features for Numerical Output
همبستگی خطی با آمار همبستگی Linear Correlation with Correlation Statistics
همبستگی خطی با اطلاعات متقابل Linear Correlation with Mutual Information
خط مبنا و مدل با استفاده از همبستگی ساخته شده است Baseline and Model Built Using Correlation
مدل ساخته شده با استفاده از ویژگی های اطلاعات متقابل Model Built Using Mutual Information Features
تنظیم تعداد ویژگی های انتخاب شده Tuning Number of Selected Features
حذف ویژگی بازگشتی Recursive Feature Elimination
RFE برای طبقه بندی RFE for Classification
RFE برای رگرسیون RFE for Regression
فراپارامترهای RFE RFE Hyperparameters
رتبه بندی ویژگی برای RFE Feature Ranking for RFE
امتیازات اهمیت ویژگی تعریف شده است Feature Importance Scores Defined
امتیازات اهمیت ویژگی: رگرسیون خطی Feature Importance Scores: Linear Regression
امتیازات اهمیت ویژگی: رگرسیون لجستیک و سبد خرید Feature Importance Scores: Logistic Regression and CART
امتیازات اهمیت ویژگی: جنگل های تصادفی Feature Importance Scores: Random Forests
اهمیت ویژگی جایگشت Permutation Feature Importance
انتخاب ویژگی با اهمیت Feature Selection with Importance

تبدیل داده ها Data Transforms

مقیاس داده های عددی Scale Numerical Data
مجموعه داده های دیابت برای مقیاس بندی Diabetes Dataset for Scaling
تبدیل MinMaxScaler MinMaxScaler Transform
Transform StandardScaler StandardScaler Transform
داده های مقیاس بندی قوی Robust Scaling Data
مقیاس کننده قوی برای مجموعه داده اعمال شده است Robust Scaler Applied to Dataset
محدوده مقیاس کننده قوی را کاوش کنید Explore Robust Scaler Range
متغیرهای اسمی و ترتیبی Nominal and Ordinal Variables
رمزگذاری ترتیبی Ordinal Encoding
رمزگذاری یک داغ تعریف شده است One-Hot Encoding Defined
رمزگذاری یک داغ One-Hot Encoding
رمزگذاری متغیر ساختگی Dummy Variable Encoding
تبدیل رمزگذار ترتیبی در مجموعه داده سرطان پستان Ordinal Encoder Transform on Breast Cancer Dataset
توزیع ها را بیشتر به صورت گوسی انجام دهید Make Distributions More Gaussian
تبدیل نیرو در مجموعه داده های ساختگی Power Transform on Contrived Dataset
تبدیل نیرو در مجموعه داده سونار Power Transform on Sonar Dataset
Box-Cox در مجموعه داده سونار Box-Cox on Sonar Dataset
یئو جانسون در مجموعه داده سونار Yeo-Johnson on Sonar Dataset
ویژگی های چند جمله ای Polynomial Features
اثر درجات چند جمله ای Effect of Polynomial Degrees

تحولات پیشرفته Advanced Transforms

تبدیل انواع داده های مختلف Transforming Different Data Types
ترانسفورماتور ستونی The ColumnTransformer
ColumnTransformer در مجموعه داده Abalone The ColumnTransformer on Abalone Dataset
متغیر هدف را به صورت دستی تبدیل کنید Manually Transform Target Variable
تبدیل خودکار متغیر هدف Automatically Transform Target Variable
چالش آماده سازی داده های جدید برای یک مدل Challenge of Preparing New Data for a Model
Save Model and Data Scaler Save Model and Data Scaler
بارگیری و اعمال مقیاس های ذخیره شده Load and Apply Saved Scalers

کاهش ابعاد Dimensionality Reduction

نفرین ابعاد Curse of Dimensionality
تکنیک هایی برای کاهش ابعاد Techniques for Dimensionality Reduction
تحلیل تشخیصی خطی Linear Discriminant Analysis
تجزیه و تحلیل تفکیک خطی نشان داده شده است Linear Discriminant Analysis Demonstrated
تجزیه و تحلیل مؤلفه های اصلی Principal Component Analysis

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو]

جزییات دوره

زمان دوره: 3 h 33 m

تعداد ویدیو ها: 103

شرکت: Packtpub

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع :

امتیاز مرجع: از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Mike West

لینک کوتاه این دوره

https://donyad.com/d/f30775

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Python Jupyter پایتون ژوپیتر Data Data Science داده علم داده

کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو] - آخرین آپدیت

Data Cleansing Master Class in Python [Video]

معرفی Introduction

معرفی دوره Course Introduction

ساختار دوره Course Structure

آیا این دوره برای شما مناسب است؟ Is this Course Right for You?

پایه ها Foundations

معرفی آماده سازی داده ها Introducing Data Preparation

فرآیند یادگیری ماشینی The Machine Learning Process

آماده سازی داده ها تعریف شده است Data Preparation Defined

انتخاب یک تکنیک آماده سازی داده ها Choosing a Data Preparation Technique

داده در یادگیری ماشین چیست؟ What is Data in Machine Learning?

داده های خام Raw Data

یادگیری ماشینی عمدتاً آماده سازی داده است Machine Learning is Mostly Data Preparation

وظایف معمول آماده سازی داده ها - پاکسازی داده ها Common Data Preparation Tasks - Data Cleansing

وظایف معمول آماده سازی داده - انتخاب ویژگی Common Data Preparation Tasks - Feature Selection

وظایف معمول آماده سازی داده ها - تبدیل داده ها Common Data Preparation Tasks - Data Transforms

وظایف مشترک آماده سازی داده ها - مهندسی ویژگی Common Data Preparation Tasks - Feature Engineering

وظایف معمول آماده سازی داده ها - کاهش ابعاد Common Data Preparation Tasks - Dimensionality Reduction

نشت داده ها Data Leakage

مشکل در آماده سازی ساده داده ها Problem with NaÏve Data Preparation

مطالعه موردی: نشت داده ها: آموزش/آزمون/رویکرد ساده لوح تقسیم شده Case Study: Data Leakage: Train / Test / Split NaÏve Approach

مطالعه موردی: نشت داده ها: آموزش/آزمون/روش صحیح تقسیم Case Study: Data Leakage: Train / Test / Split Correct Approach

مطالعه موردی: نشت داده: رویکرد ساده لوح K-Fold Case Study: Data Leakage: K-Fold NaÏve Approach

مطالعه موردی: نشت داده: رویکرد صحیح K-Fold Case Study: Data Leakage: K-Fold Correct Approach

پاک کردن داده Data Cleansing

بررسی اجمالی پاکسازی داده ها Data Cleansing Overview

ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید Identify Columns That Contain a Single Value

ستون هایی با مقادیر کم را شناسایی کنید Identify Columns with Few Values

حذف ستون های با واریانس کم Remove Columns with Low Variance

ردیف هایی که حاوی داده های تکراری هستند را شناسایی و حذف کنید Identify and Remove Rows That Contain Duplicate Data

تعریف نقاط پرت Defining Outliers

حذف نقاط پرت - رویکرد انحراف استاندارد Remove Outliers - The Standard Deviation Approach

حذف Outliers - رویکرد IQR Remove Outliers - The IQR Approach

تشخیص خودکار نقاط بیرونی Automatic Outlier Detection

علامت گذاری مقادیر گمشده Mark Missing Values

ردیف هایی با مقادیر از دست رفته را حذف کنید Remove Rows with Missing Values

محاسبه آماری Statistical Imputation

محاسبه مقدار میانگین Mean Value Imputation

Imputer ساده با ارزیابی مدل Simple Imputer with Model Evaluation

مقایسه راهبردهای مختلف انتساب آماری Compare Different Statistical Imputation Strategies

K-نزدیک‌ترین همسایه‌ها K-Nearest Neighbors Imputation

KNNI کامپیوتر و ارزیابی مدل KNNImputer and Model Evaluation

Iterative Imputation Iterative Imputation

IterativeImputer و مدل ارزیابی IterativeImputer and Model Evaluation

IterativeImputer و Different Imputation Order IterativeImputer and Different Imputation Order

انتخاب ویژگی Feature Selection

معرفی انتخاب ویژگی Feature Selection Introduction

انتخاب ویژگی تعریف شده است Feature Selection Defined

آمار برای انتخاب ویژگی Statistics for Feature Selection

بارگیری یک مجموعه داده طبقه بندی شده Loading a Categorical Dataset

مجموعه داده را برای مدلسازی رمزگذاری کنید Encode the Dataset for Modelling

Chi-Squared Chi-Squared

اطلاعات متقابل Mutual Information

مدل سازی با ویژگی های دسته بندی انتخاب شده Modeling with Selected Categorical Features

انتخاب ویژگی با ANOVA در ورودی عددی Feature Selection with ANOVA on Numerical Input

انتخاب ویژگی با اطلاعات متقابل Feature Selection with Mutual Information

مدل سازی با ویژگی های عددی منتخب Modeling with Selected Numerical Features

تنظیم تعدادی از ویژگی های انتخاب شده Tuning a Number of Selected Features

ویژگی ها را برای خروجی عددی انتخاب کنید Select Features for Numerical Output

همبستگی خطی با آمار همبستگی Linear Correlation with Correlation Statistics

همبستگی خطی با اطلاعات متقابل Linear Correlation with Mutual Information

خط مبنا و مدل با استفاده از همبستگی ساخته شده است Baseline and Model Built Using Correlation

مدل ساخته شده با استفاده از ویژگی های اطلاعات متقابل Model Built Using Mutual Information Features

تنظیم تعداد ویژگی های انتخاب شده Tuning Number of Selected Features

حذف ویژگی بازگشتی Recursive Feature Elimination

RFE برای طبقه بندی RFE for Classification

RFE برای رگرسیون RFE for Regression

فراپارامترهای RFE RFE Hyperparameters

رتبه بندی ویژگی برای RFE Feature Ranking for RFE

امتیازات اهمیت ویژگی تعریف شده است Feature Importance Scores Defined

امتیازات اهمیت ویژگی: رگرسیون خطی Feature Importance Scores: Linear Regression

امتیازات اهمیت ویژگی: رگرسیون لجستیک و سبد خرید Feature Importance Scores: Logistic Regression and CART

امتیازات اهمیت ویژگی: جنگل های تصادفی Feature Importance Scores: Random Forests

اهمیت ویژگی جایگشت Permutation Feature Importance

انتخاب ویژگی با اهمیت Feature Selection with Importance

تبدیل داده ها Data Transforms

مقیاس داده های عددی Scale Numerical Data

مجموعه داده های دیابت برای مقیاس بندی Diabetes Dataset for Scaling

تبدیل MinMaxScaler MinMaxScaler Transform